視覺語言模型(Vision Language Model, VLM) 是融合了電腦視覺(Computer Vision)和自然語言處理 (NLP) 演算法的人工智慧(AI)模型。
VLM也是一種生成式模型,但與僅能處理文字資料的大型語言模型(LLM)不同,VLM將LLM的處理文字的能力擴展到視覺領域,使用者輸入可以是圖像或文字,而AI系統能夠「看懂」圖像並「理解」文字指令,進而實現雙向的溝通與內容生成。
VLM 的應用場景,包括:
AI 若要「理解世界」,只有文字是不夠的,還需要感知能力,電腦視覺就像是 AI 的「眼睛」,透過影像與影片資料,讓AI能辨識人臉、物體、文字、場景,沒有視覺,AI 在許多真實場景中的應用會受到極大限制,相較於目前已相對成熟及應用廣泛LLM,例如我們熟知的ChatGPT、Gemini等,VLM 仍在發展階段,且由於要處理的影像資料較複雜,需要的資源也較高,尚有許多挑戰,但成長非常快速,已持續發展出許多模型,相信未來當它更精準、更即時,VLM會因為在跨模態的能力,使AI有更多元的應用。
接下來的30天,就和我一起來瞭解 VLM 的技術原理、測試各家模型及實作。